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上 一 节 课 ， 我 们 主要 探讨 了 当 M 的 数值 大 小 对 机 器 学 习 的 影响 。 如 果 M 很 大 ， 那 么 就 

不 能 保证 机 器 学 习 有 很 好 的 泛 化 能 力 ， 所 以 问题 转换 为 验证 M 有 限 ， 即 最 好 是 按照 多 

项 式 成 长 。 然 后 通过 引入 了 成 长 函数 mg (N ) 和 dichotomy 以 及 break point 的 概念 ， 提 
出 2D регсерігопѕБ KAM y (NN ) 是 多 项 式 级 别 的 猜想 。 这 就 是 本 节 课 将 要 深入 

探讨 和 证 明 的 内 容 。 


一 、Restriction of Break Point 


我 们 先 回顾 一 下 上 节 课 的 内 容 ， 四 种 成 长 函数 与 break point 的 关系 : 


e positive rays: m(N)=N+1 
ох mx(2)= 3 < 22: break point at 2 
• positive intervals: тн(№ = 5№ + 5№+ 1 
охо тн(3) = 7 < 23: break point at З 
e convex sets: ma(N) = 2" 
o 2 е mx(N) = 2“ always: по break point 
• 20 perceptrons: mn(N) < 2" іп some cases 


x x mx(4)= 14 < 24: break point at 4 


下 面 引入 一 个 例子 ， 如 果 k=2， 那 么 当 N 取 不 同 值 的 时 候 ， 计 算 其 成 长 函数 mm 瑟 (JV) 是 
多 少 。 很 明显 ， 当 N=1 时 ，mp (入)=2,; 当 N=2 时 ， 由 break point 为 2 可 知 ， 任 意 两 
点 都 不 能 被 shattered (shatter 的 意思 是 对 N 个 点 ， 能 够 分 解 为 2 种 dichotomies) ; 
mH (NN ) 最 大 值 只 能 是 3， 当 N=3 时 ， 和 简单 绘 图 分 析 可 得 其 mp (Л) = 4， 即 最 多 只 
4 种 dichotomies。 


what ‘must be true’ when minimum break point к = 2 


• N = 1: every mx(N) = 2 by definition 

• N = 2: every M(N) < 4 by definition 
(so maximum possible = 3) 

e N = 3: maximum possible = 4 < 23 


一 break point k restricts maximum possible ,, (№) а lot for N > k 


所 以 ， 我 们 发 现 当 N>k 时 ，break point 限 制 了 mpg (六 ) 值 的 大 小 ， 也 就 是 说 影响 成 长 
函数 mp (NN ) 的 因素 主要 有 两 个 : 

。 抽样 数据 集 N 

• break point К (这 个 变量 确定 了 假设 的 类 型 ) 
那么 ， 如 果 给 定 N 和 k， 能 够 证 明 其 mp ( ) 的 最 大 值 的 上 界 是 多 项 式 的 ， 则 根据 霍 夫 


J 不等式， 就 能 用 mp (入 ) 代 蔡 M， 得 到 机 器 学 习 是 可 行 的 。 所 以 ,证 明 mp (NN) 的 
上 界 是 poly(N)， 是 我 们 的 目标 。 


idea: max(N) 
maximum possible т; (№) given k 
poly(N) 


IA 1А 


=. Bounding Function: Basic Cases 


现在 ， 我 们 引入 一 个 新 的 函数 : bounding function, В(М,К)„ Bound Function 指 的 是 
当 break point 为 k 的 时 候 ， 成 长 函数 mp (N ) 可 能 的 最 大 值 。 也 就 是 说 B(N,k) 是 

тн (入 ) 的 上 界 ， 对 应 mp ( 作 ) 最 多 有 多 少 种 dichotomy。 那 么 ,我 们 新 的 目标 就 是 证 
明 : 


B(N,k) < poly(N) 


这 里 值得 一 提 的 是 ，B(N,k) 的 引入 不 考虑 是 1D postive intrervals 问 题 还 是 2D 
perceptrons 问 题 ， 而 只 关心 成 长 函数 的 上 界 是 多 少 ， 从 而 简化 了 问题 的 复杂 度 。 


bounding function B(N, К): 
maximum possible т (М) when break point = k 


e combinatorial quantity: 
maximum number of length-N vectors with (о, x) 
while ‘no shatter’ any length-k subvectors 


• irrelevant of the details of H 
e.g. B(N,3) bounds both 


• positive intervals (К = 3) 
e 1D perceptrons (k = 3) 


求解 B(N,k) 的 过 程 十 分 巧妙 : 
• 当 k=1 时 ，B(N,1) 恒 为 1。 
。 当 N < k 时 ， 根 据 break point 的 定义 ， 很 容易 得 到 B(N, k) = 2, 


。 当 N = k 时 ， 此 时 N 是 第 一 次 出 现 不 能 被 shatter 的 值 ， 所 以 最 多 只 能 有 2” 一 1 个 
dichotomies, 则 B(N,k) = IN i, 


1 22-9 5 6 

1 2 2 2 2 2 

2 1 з 4 4 4 4 

3 1 ато в оа 
М 4 1 15 16 16 
5 1 з1 32 
6 1 63 


到 此 ，bounding function 的 表格 已 经 填 了 一 半 了 ， 对 于 最 常见 的 N>k 的 情况 比较 复 
杂 ， 推 导 过 程 下 一 小 节 再 详细 介绍 。 

=. Bounding Function: Inductive Cases 

N > k 的 情况 较为 复杂 ， 下 面 给 出 推导 过 程 : 

以 B(4,3) 为 例 ， 首 先 想 着 能 否 构建 B(4,3) 与 B(3,x) 之 间 的 关系 。 


首先 ， 把 B(4,3) 所 有 情况 写 下 来 ， 共 有 11 组 。 也 就 是 说 再 加 一 种 dichotomy， 任 意 三 点 
都 能 被 shattered，11 是 极限 。 
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对 这 11 种 dichotomy 分 组 ， 目 前 分 成 两 组 ， 分 别 是 orange 和 purple，orange 的 特点 
是 ，x1,x2 和 x3 是 一 致 的 ，x4 不 同 并 成 对 ， 例 如 1 和 5，2 和 8 等 ，purple 则 是 单一 的 ， 
x1,x2,x3 都 不 同 ， 如 6,7,9 三 组 。 
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orange: pair; purple: single | 


将 Orange 去 掉 x4 后 去 重 得 到 4 个 不 同 的 vector 并 成 为 w， 相 应 的 purple 为 6。 那 么 
В(4,3) = 2a 十 6， 这 个 是 直接 转化 。 紧 接着 ， 由 定义 ，B(4,3) 是 不 能 允许 任意 三 点 
shatter 的 ， 所 以 由 a 和 6 构成 的 所 有 三 点 组 合 也 不 能 shatter (alpha 经 过 去 重 ) ， 即 
a+ В < В(3, 3), 





• 2 + 8: dichotomies оп (x1,X2, Хз) 
• B(4,3) ‘по shatter’ any З inputs 
=> a + 8 ‘по shatter’ any 3 


a + B < В(3,3) | 


另 一 方面 ， 由 于 Q 中 x4 是 成 对 存在 的 ， 且 a 是 不 能 被 任意 三 点 shatter 的 ， 则 能 推导 出 a 
是 不 能 被 任意 两 点 shatter 的 。 这 是 因为 ， 如 果 a 是 不 能 被 任意 两 点 shatter， 而 x4 又 是 
成 对 存在 的 ， 那 么 x1、x2、x3、x4 组 成 的 wa 必然 能 被 三 个 点 shatter。 这 就 违背 了 条 件 
的 设 定 。 这 个 地 方 的 推导 非常 巧妙 ， 也 解释 了 为 什么 会 这 样 分 组 。 此 处 得 到 的 结论 是 
а < В(3, 2) 








e a: dichotomies оп (х1, х2, Хз) 
with x4 paired 

• B(4,3) ‘по shatter’ any З inputs 

=> a ‘по shatter’ any 2 





a < B(3,2) | 


由 此 得 出 B(4,3) 与 B(3,x) 的 关系 为 : 


B(4,3) 
ca 十 了 


20+ 8 
В(3,3) 
В(3, 2) 
В(3,3) + В(3, 2) 


[4 


= В(4, 3) 


IA IA IA Il 


最 后 ， 推 导出 一 般 公 式 为 : 


B(N, К) 
a+8 


20+ 8 

B(N – 1, к) 

В(мМ– 1,к– 1) 

В(М– 1,к) + В(М– 1,к– 1) 


Q 


=> B(N,k) 


IA IA IA |! 


根据 推导 公式 ， 下 表 给 出 B(N,K) 值 





k 

2 3 4 

2 2 2 
2 3 4 4 
3 4 7 8 
4 <5 1 15 6 
5 <6 <16 <26 31 2 
6 <7 <22 <42 Ы 


вмю< У) (7) 


i=0 
—„— 
highest term N*—1 
上 述 不 等 式 的 右边 是 最 高 阶 为 k-1 的 N 多 项 式 ， 也 就 是 说 成 长 函数 my (Л ) 的 上 界 
B(N,K) 的 上 界 满足 多 项 式 分 布 poly(N)， 这 就 是 我 们 想 要 得 到 的 结果 。 


得 到 了 mp (入 ) 的 上 界 B(N,K) 的 上 界 满足 多 项 式 分 布 poly(N) 后 ， 我 们 回 过 头 来 看 看 之 
前 介绍 的 几 种 类 型 它们 的 mg (N ) 与 break point 的 关系 : 


e positive rays: тн(№\ = М+1<= № 1 
ох тн(2) = 3 < 22: break point at 2 


e positive intervals: mx(N) = 3N2 + 3N+ 1< 5 + 3N+1 
охо mx(3)=7 < 23: break point at З 
• 20 perceptrons: mn(N)=? < N8 + BN+1 


о 


х x тн(4) = 14 < 2“: break point at 4 


о 


我 们 得 到 的 结论 是 ， 对 于 2D регсерігопѕ, break pointžk=4, my (入 ) 的 上 界 是 
NEI, 推广 一 下 ， 也 就 是 说 ， 如 果 能 找到 一 个 模型 的 break point， 且 是 有 限 大 的 ， 
那么 就 能 推断 出 其 成 长 函数 mp (入 ) 有 界 。 

四 、A Pictorial Proof 


我 们 已 经 知道 了 成 长 浮 数 的 上 界 是 poly(N) 的 ， 下 一步 ， 如 果 能 将 mp (NREM, К 
入 到 Hoffding 不 等 式 中 ， 就 能 得 到 Bowt ~ Brin 的 结论 : 


want: 


P|ah € Н s-t. |En(h)— Eoun(h)| > e| <2 mx( N).exp (-2 en) 


实际 上 并 不 是 简单 的 替换 就 可 以 了 ， 正 确 的 表达 式 为 : 


actually, when N large enough, 


P|ah E H s-t. |En(h) — Eon(h)| > e < 2.2m(2N) - exp (-26°М) 


该 推导 的 证 明 比 较 复杂 ， 我 们 可 以 简单 概括 为 三 个 步骤 来 证 明 : 


Step 1: Replace Eout by Ein 
5P[3h E Н s:t. |En(h) – Eou(h)| > < 
P|ahe H s.t. |En(h) — En(h)| > 5| 





• En(h) finitely many, Eout(h) infinitely тапу 
—replace the evil Eout first 


• how? sample verification set D’ of size N 
to calculate Ej, 


* BAD hof En — Бош 
PEY BAD hof En 一 局， 


evil Eout removed by 
verification with ‘ghost data’ | 


Step 2: Decompose #H by Кіпа 
2P|3h € H st |Ein(h) – Е,(Р)| > s] 
2mn(2N)P [fixed h s:t. |Ein(h) – En (h)| > 5] 


* En with D, Е/ with 2 9235 Ж 
一 now mx comes to play $ „4 5 

• how? infinite H becomes 图 Ж Сы С^ 6 
ОИ Е ДЕИ оер Е: 
кіпаѕ . 0° 98 


e union bound оп м; (2%) kinds | (a) rotin шешу на 


use т. (2№) їо calculate BAD-overlap properly | 


ПШ 
in 


Probability distribution 
of En, E 





BAD 


IA 











Step 3: Use Hoeffding without Replacement 
2mx(2NJP|fxed h s.t. |En(h) – Eh(h)| > $] 


2m„(2N) .2exp (-2 (9 N) 


BAD 


IA 





• consider bin of 2N examples, 
choose N for Ein, leave others for Е 


€ Ein+E; є 
|En- Enl > $ © |En – 25 > { 
• 50? just ‘smaller bin’, ‘smaller є’, апа 
Hoeffding without replacement 


sample for Ein 





small bin 


use Hoeffding after zooming to fixed h | 


这 部 分 内 容 ， 我 也 只 能 听 个 大 概 内 容 ， 对 具体 的 证 明 过 程 有 兴趣 的 童鞋 可 以 自行 研究 
一 下 ， 研 究 的 结果 记得 告诉 一 下 我 哦 。 


最 终 ， 我 们 通过 引入 成 长 函数 my ， 得 到 了 一 个 新 的 不 等 式 ， 称 为 Vapnik- 
Chervonenkis(VC) bound: 
Vapnik-Chervonenkis (VC) bound: 
P|3b E Н st |En(h) – Eoun(h)| > e] 
< 4mn(2N)exp (-сем) 
对 于 2D perceptrons， 它 的 break point 是 4， 那 么 成 长 函数 mp (Л) = O(N). Fi 


以 ,我 们 可 以 说 2D perceptrons 是 可 以 进行 机 器 学 习 的 ， 只 要 找到 hypothesis 能 让 
E;n а= 0， 就 能 ЖИЕ Р; д Кош 


五 、 总 结 


本 节 课 我 们 主要 介绍 了 只 要 存在 break point， 那 么 其 成 长 函数 mp (N ) 就 满足 
poly(N)。 推 导 过 程 是 先 引 入 mp (六) 的 上 界 B(N,k)，B(N,k) 的 上 界 是 N 的 k-1 阶 多 项 


式 ， 从 而 得 到 mr (JV) 的 上 界 就 是 N 的 k-1 阶 多 项 式 。 然 后 ， 我 们 通过 简单 的 三 步 证 
ВВ, 将 mp (入 ) 代 入 了 Hoffding 不 等 式 中 ， 推 导出 了 Vapnik-Chervonenkis(VC) 
bound， 最 终 证 明了 只 要 break point 存 在 ， 那 么 机 器 学 习 就 是 可 行 的 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 基 石 》 课 程 。 


